Developers.IO 2019 in OSAKAで「スティーブン・セガール出演作品の邦題に『沈黙』がつくかどうか判別する機械学習モデルを作ろうとしてみた」を話しました #cmdevio
こんにちは。データアナリティクス事業本部@大阪オフィスの玉井です。
2019年10月11日に開催されたDevelopers.IO 2019 in Osakaにて「スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた」というテーマで登壇しました。
資料
前作
今回は、2019年9月12日のDevelopers.IO 2019 in Nagoyaで話したものに、内容をちょこっと追加したものになります。(「沈黙の分析2」)
内容の補足とか
超概要
第三次AIブームの昨今、機械学習の技術に関する情報は非常に多く発信されており、やる気があれば1から機械学習の技術を学ぶことも難しくなくなってきました。
しかし、その機械学習の技術を実際にどう使うのか(どう使ったのか)という話はまだまだ少ないように思えます。というわけで、今回は多くの方に馴染みがあるアクション俳優のデータを使って、実際に機械学習をやってみた経験談をお話しました。
私自身は機械学習エンジニアでもなんでもないのですが、そんな素人が機械学習にチャレンジしてみたらどうなったのか?というお話になっています。
資料に掲載されている情報のリンク
- 【書評】「仕事ではじめる機械学習」を読んで、機械学習プロジェクトの大変さを知った夏 | DevelopersIO
- スティーヴン・セガール - Wikipedia
- Machine Learning: The High Interest Credit Card of Technical Debt – Google AI
- Google AI Blog: Using Machine Learning to Predict Parking Difficulty
- The Movie Database (TMDb)
- OMDb API - The Open Movie Database
- Dashblock l Turn any website into an API
- Cartels (film) - Wikipedia
- Choosing the right estimator — scikit-learn 0.21.3 documentation
- Sheep Impact
前作からの追加部分
使用したアルゴリズムが増えた
前作では、使用したアルゴリズムは「ロジスティック回帰」だけでしたが、今回は下記4つを使用しています。
- ロジスティック回帰
- ニューラルネットワーク
- 決定木
- ランダムフォレスト
これらのアルゴリズムのうち、一番精度の良いものを選択する流れになっています。
各アルゴリズムの解説ですが、大したことは一切書いていないので、気になる方はそれぞれ調べていただくのが一番いいと思います(むちゃくちゃ)。
端折った部分が多め
前作(名古屋での登壇)に比べて、時間制限が厳し目だったので、非常に多くの部分を省略しました。特に映画データを海外APIから取得する部分の苦労話はもっと話したかったのですが、本質とはズレるので、詳細はスライドをみてください。
反応
やっぱり「セガールしか頭に入らない」ということでした。
3作目の制作&上映決定!
な、な、なんと、今回お話した「沈黙の分析2」ですが、ついに3作目が東京で上映(登壇)されることが決定しました!やっぱり映画は3部作がお約束!
詳細は下記を御覧ください。
セガールは東京でも暴れます。乞うご期待。